2. Rola modelu językowego

Rola modelu językowego w agencie AI

Model językowy to "mózg" agenta AI – to on odpowiada za rozumienie języka naturalnego, analizowanie kontekstu, podejmowanie decyzji i generowanie odpowiedzi. Bez modelu językowego agent byłby tylko zestawem sztywnych reguł – z nim staje się inteligentnym systemem zdolnym do elastycznego rozwiązywania problemów.

Do czego służy model językowy w agencie AI?

1. Rozumienie języka naturalnego (NLU – Natural Language Understanding)

Model językowy analizuje tekst i rozumie jego znaczenie, intencję oraz kontekst.

Przykłady:

Użytkownik pisze: "Chcę sprawdzić, czy ktoś odpowiedział na mojego ostatniego e-maila do działu sprzedaży"
Model rozumie:
- Akcja: sprawdzenie e-maili
- Kontekst: ostatni wysłany e-mail
- Odbiorca: dział sprzedaży
- Cel: znalezienie odpowiedzi

2. Ekstrakcja informacji

Model potrafi wyciągać konkretne dane z nieustrukturyzowanego tekstu.

Przykłady:

Z e-maila: "Prosimy o przesłanie faktury na kwotę 2500 zł do 15 grudnia 2025"
Model wyciąga:
- Typ dokumentu: faktura
- Kwota: 2500 zł
- Termin: 15 grudnia 2025

3. Podejmowanie decyzji

Model analizuje dostępne informacje i wybiera najlepsze działanie.

Przykład:

Sytuacja: Otrzymano e-mail z prośbą o informacje o produkcie
Model decyduje:
- Czy może odpowiedzieć sam (jeśli ma informacje w bazie wiedzy)
- Czy powinien przekazać do człowieka (jeśli pytanie jest złożone)
- Czy powinien zebrać więcej danych przed odpowiedzią

4. Wybór i wywoływanie narzędzi (tools)

Model decyduje, które narzędzia użyć do wykonania zadania.

Przykład:

Zapytanie: "Wyślij raport sprzedażowy z ostatniego tygodnia do zespołu managementu"
Model wybiera narzędzia:
1. Google Sheets – pobranie danych sprzedażowych
2. Python – wygenerowanie wykresu
3. Gmail – wysłanie e-maila z raportem

5. Generowanie odpowiedzi

Model tworzy naturalnie brzmiące odpowiedzi dostosowane do kontekstu.

Przykład:

Dane: Faktura nr 123/2025, kwota 3500 zł, termin płatności: 10 grudnia
Model generuje: "Faktura nr 123/2025 na kwotę 3500 zł została zarejestrowana. Termin płatności upływa 10 grudnia – to za 5 dni. Czy mam wysłać przypomnienie do działu finansowego?"

6. Zarządzanie kontekstem i pamięcią

Model pamięta wcześniejsze interakcje i odwołuje się do nich.

Przykład:

Użytkownik (1): "Pokaż mi faktury z listopada"
Agent: "Znalazłem 12 faktur z listopada. Łączna kwota: 45 000 zł"
Użytkownik (2): "A ile z nich jest niezapłaconych?"
Agent (pamięta kontekst): "5 faktur na łączną kwotę 18 500 zł pozostaje niezapłaconych"

Popularne modele językowe używane w agentach AI

OpenAI – rodzina modeli GPT

GPT-4o (GPT-4 Optimized)

Opis: Najnowsza, zoptymalizowana wersja GPT-4, łącząca szybkość z wysoką jakością
Mocne strony:
- Szybsze niż GPT-4, tańsze w użyciu
- Bardzo dobre rozumienie kontekstu
- Świetne w złożonym rozumowaniu
- Obsługa text + obrazy
Zastosowania w agentach:
- Analiza dokumentów i obrazów (faktury, umowy, diagramy)
- Złożone zadania wymagające logicznego myślenia
- Obsługa klienta z kontekstem wizualnym

GPT-4 Turbo

Opis: Szybsza i tańsza wersja GPT-4 z większym oknem kontekstowym (128k tokenów)
Mocne strony:
- Bardzo duże okno kontekstowe (może przetworzyć długie dokumenty)
- Dobra jakość przy niższych kosztach
- Szybka odpowiedź
Zastosowania w agentach:
- Analiza długich dokumentów (raporty, umowy, protokoły)
- Agenci wymagający dużej pamięci kontekstowej
- Zadania wymagające przetwarzania wielu źródeł jednocześnie

GPT-3.5 Turbo

Opis: Starszy, tańszy model, wciąż bardzo popularny
Mocne strony:
- Niski koszt użycia
- Szybka odpowiedź
- Wystarczający do prostych zadań
Zastosowania w agentach:
- Proste automaty odpowiedzi (chatboty FAQ)
- Klasyfikacja tekstu
- Generowanie prostych raportów

GPT-4o-mini

Opis: Najmniejszy i najtańszy model z rodziny GPT-4, zoptymalizowany pod kątem kosztów
Mocne strony:
- Bardzo niski koszt
- Szybka odpowiedź
- Nadal lepsza jakość niż GPT-3.5
Zastosowania w agentach:
- Masowa klasyfikacja (e-maile, tickety)
- Proste ekstrakcje danych
- Wstępne filtrowanie przed użyciem droższych modeli

Google – rodzina modeli Gemini

Gemini 1.5 Pro

Opis: Najpotężniejszy model Google z ogromnym oknem kontekstowym (do 2 milionów tokenów)
Mocne strony:
- Gigantyczne okno kontekstowe – może przetworzyć całe książki, wielogodzinne nagrania audio/wideo
- Multimodalność (text, obrazy, audio, wideo)
- Świetne rozumowanie i analiza
- Bardzo dobre w zadaniach wymagających długoterminowej pamięci
Zastosowania w agentach:
- Analiza całych projektów (setek plików jednocześnie)
- Przetwarzanie długich nagrań wideo/audio
- Agenci wymagający bardzo długiej pamięci kontekstowej
- Analiza wielowątkowych rozmów i dokumentacji

Gemini 1.5 Flash

Opis: Szybsza i tańsza wersja Gemini, zoptymalizowana pod kątem wydajności
Mocne strony:
- Bardzo szybka odpowiedź
- Niższy koszt niż Pro
- Wciąż duże okno kontekstowe (do 1 miliona tokenów)
- Multimodalność
Zastosowania w agentach:
- Szybkie chatboty obsługi klienta
- Real-time analiza strumieni danych
- Agenci wymagający małych opóźnień
- Masowe przetwarzanie z dobrą jakością

Gemini 1.0 Pro

Opis: Starszy model Google, wciąż dostępny i użyteczny
Mocne strony:
- Solidna jakość
- Niższy koszt
- Stabilne API
Zastosowania w agentach:
- Standardowe zadania NLP
- Proste agenty konwersacyjne
- Klasyfikacja i ekstrakcja danych

Porównanie: OpenAI vs Google Gemini

Cecha	OpenAI (GPT)	Google (Gemini)
Jakość rozumowania	Bardzo wysoka (GPT-4o, GPT-4 Turbo)	Bardzo wysoka (Gemini 1.5 Pro)
Okno kontekstowe	Do 128k tokenów (GPT-4 Turbo)	Do 2M tokenów (Gemini 1.5 Pro)
Multimodalność	Text + obrazy (GPT-4o)	Text + obrazy + audio + wideo
Szybkość	Szybka (GPT-4o, GPT-3.5)	Bardzo szybka (Gemini Flash)
Koszt	Średni do wysoki	Niższy (szczególnie Flash)
Stabilność API	Bardzo dobra	Dobra, szybko się rozwija
Ekosystem narzędzi	Bardzo rozbudowany	Rozwijający się

Jak wybrać model dla swojego agenta?

Wybierz GPT-4o lub Gemini 1.5 Pro, jeśli:

Potrzebujesz najwyższej jakości rozumowania
Agent ma wykonywać złożone zadania wymagające logiki
Budzet pozwala na wyższe koszty
Chcesz przetwarzać obrazy, dokumenty wizualne

Wybierz GPT-4 Turbo, jeśli:

Potrzebujesz dużego okna kontekstowego (długie dokumenty)
Agent ma przetwarzać wiele źródeł jednocześnie
Szukasz dobrego balansu między jakością a kosztem

Wybierz Gemini 1.5 Flash, jeśli:

Potrzebujesz bardzo szybkich odpowiedzi
Agent ma obsługiwać duży ruch użytkowników
Chcesz niskie koszty przy dobrej jakości
Potrzebujesz multimodalności (audio/wideo)

Wybierz GPT-3.5 Turbo lub GPT-4o-mini, jeśli:

Budżet jest ograniczony
Zadania są proste (klasyfikacja, FAQ, proste ekstrakcje)
Agent ma działać masowo (tysiące zapytań dziennie)

Model językowy w n8n

W n8n możesz używać modeli językowych przez:

AI Agent Node – gotowy węzeł do tworzenia agentów AI
OpenAI Node – bezpośrednia integracja z GPT
Google AI Node – integracja z Gemini
HTTP Request Node – własne wywołania API do modeli

Przykład konfiguracji w n8n:

1. Trigger (Webhook lub Email)
2. AI Agent Node
   - Model: GPT-4o lub Gemini 1.5 Flash
   - Tools: Gmail, Google Sheets, Slack
   - Instrukcja: "Jesteś agentem obsługi klienta..."
3. Response Node

Podsumowanie

Model językowy to serce agenta AI – bez niego agent nie mógłby rozumieć języka naturalnego, podejmować decyzji ani generować odpowiedzi. Wybór odpowiedniego modelu zależy od:

Złożoności zadań (proste vs złożone rozumowanie)
Wymagań kontekstowych (krótkie vs długie dokumenty)
Budżetu (niski vs wysoki koszt)
Szybkości (real-time vs batch processing)
Multimodalności (tylko text vs text+obraz+audio+wideo)

Najpopularniejsze wybory to GPT-4o (OpenAI) dla uniwersalnej wysokiej jakości oraz Gemini 1.5 Flash (Google) dla szybkich i tanich aplikacji z dużym kontekstem.

W kolejnym module dowiesz się:

Jak skonfigurować model językowy w n8n
Jak zoptymalizować prompty dla agentów AI
Jak zarządzać kosztami API modeli językowych
Jak testować i monitorować działanie agentów AI